Projekt ma na celu analizę danych opisujących materiały wykorzystywane przy tworzeniu baterii. Dane pochodzą z bazy danych Material Projects, udostępnianej przez Departament Energii USA.

1 Przygotowanie środowiska

1.1 Wykorzystane biblioteki

library(knitr)
library(kableExtra)
library(dplyr)
library(ggplot2)
library(tidyr)
library(corrplot)
library(RColorBrewer) 
library(scales)
library(plotly)

library(caret)

library(tidyverse)

library(gganimate)

library(ggpubr) library(vtable)

1.2 Zapewnienie powtarzalności wyników

Powtarzalność rezultatów podczas kolejnych wykonań skryptu można zagwarantować poprzez ustawienie wartości ziarna (seed) na konkretną stałą.

set.seed(25)

2 Przygotowanie danych

2.1 Wczytanie danych

Dane znajdują się w pliku CSV mp_batteries.csv.

initial <- read.csv("mp_batteries.csv", nrows = 100)
classes <- sapply(initial, class)
df <- read.csv("mp_batteries.csv", colClasses = classes)

2.2 Prezentacja próbki danych

Battery.ID Battery.Formula Working.Ion Formula.Charge Formula.Discharge Max.Delta.Volume Average.Voltage Gravimetric.Capacity Volumetric.Capacity Gravimetric.Energy Volumetric.Energy Atomic.Fraction.Charge Atomic.Fraction.Discharge Stability.Charge Stability.Discharge Steps Max.Voltage.Step
mp-30_Al Al0-2Cu Al Cu Al2Cu 3.0433992 0.0890331 1368.48055 5562.7901 121.840086 495.272533 0.0000000 0.6666667 0.0000000 0.0000000 1 0
mp-1022721_Al Al1-3Cu Al AlCu Al3Cu 1.2436528 -0.0215863 1112.93655 4418.9798 -24.024232 -95.389622 0.5000000 0.7500000 0.0740612 0.0962458 1 0
mp-8637_Al Al0-5Mo Al Mo Al5Mo 4.7625743 0.1227568 1741.50416 7175.7017 213.781556 880.866507 0.0000000 0.8333333 0.4114601 0.0452120 1 0
mp-129_Al Al0-12Mo Al Mo Al12Mo 12.7238931 0.0431214 2298.81076 7346.2323 99.128013 316.780060 0.0000000 0.9230769 0.0000000 0.0114456 1 0
mp-91_Al Al0-12W Al W Al12W 12.4945977 0.0292342 1900.74513 7332.7186 55.566774 214.366205 0.0000000 0.9230769 0.0000000 0.0000000 1 0
mp-1055908_Al Al0-12Mn Al Mn MnAl12 18.2361563 0.0397314 2547.69280 7592.9161 101.223298 301.676876 0.0000000 0.9230769 0.1454643 0.0000000 1 0
mp-2658_Al Al0-1Fe Al Fe AlFe 0.7711539 0.4717287 970.75702 5622.3562 457.933974 2652.226958 0.0000000 0.5000000 0.7613994 0.0000000 1 0
mp-16722_Al Al1-10.25V Al Al10V Al41V4 0.0027108 -0.0155827 61.37701 176.4151 -0.956421 -2.749028 0.9090909 0.9111111 0.0118097 0.0125861 1 0

3 Podsumowanie zbioru danych

3.1 Rozmiar i zawartość zbioru danych

Zbiór danych składa się z 4351 wierszy i 17 kolumn. Nie zawiera wartości pustych.

Kolumny odpowiadają następującym danym:

  • Battery ID: Identyfikator baterii.
  • Battery Formula: Wzór chemiczny materiału baterii.
  • Working Ion: Główny jon, który odpowiada za transport ładunku w baterii.
  • Formula Charge: Wzór chemiczny materiału baterii w stanie naładowanym.
  • Formula Discharge: Wzór chemiczny materiału baterii w stanie rozładowanym.
  • Max Delta Volume: Zmiana objętości w % dla danego kroku napięcia za pomocą wzoru: max(charge, discharge)/min(charge, discharge) -1.
  • Average Voltage: Średnie napięcie dla poszczególnego kroku napięcia.
  • Gravimetric Capacity: Pojemność grawimetryczna, czyli ilość energii na jednostkę masy (mAh/g).
  • Volumetric Capacity: Pojemność wolumetryczna, czyli ilość energii na jednostkę objętości (mAh/cm³).
  • Gravimetric Energy: Gęstość energii w odniesieniu do masy baterii (Wh/kg).
  • Volumetric Energy: Gęstość energii w odniesieniu do objętości baterii (Wh/L).
  • Atomic Fraction Charge: Udział atomowy składników w stanie naładowanym.
  • Atomic Fraction Discharge: Udział atomowy składników w stanie rozładowanym.
  • Stability Charge: Wskaźnik stabilności materiału w stanie naładowanym.
  • Stability Discharge: Wskaźnik stabilności materiału w stanie rozładowanym.
  • Steps: Liczba odrębnych kroków napięcia od pełnego naładowania do rozładowania, oparta na stabilnych stanach pośrednich.
  • Max Voltage Step: Maksymalna bezwzględna różnica między sąsiednimi krokami napięcia.

3.2 Szczegółowa analiza wartości atrybutów

3.2.1 Rozkład wartości liczbowych

Można zauważyć, że większość przedstawionych zbiorów danych ma rozkład zbliżony do normalnego, jednak prawostronnie skośny. Oznacza to, że znaczna część wartości skupia się po lewej stronie od średniej, a ogon rozkładu jest dłuższy po prawej stronie. Oznacza to, że w zbiorze danych występuje kilka wartości wyraźnie większych, które mogą opisywać baterie produkowane według nowatorskich metod lub takie o nietypowym, specyficznym przeznaczeniu.

3.2.2 Rozkład wartości nieliczbowych

Wartości nieliczbowych nie da się zaprezentować w postaci histogramu, dlatego dla każdej kolumny wybrano 10 najczęściej występujących wartości i przedstawiono na wykresie słupkowym ich częstotliwość występowania.

Kolumna Battery.ID ma unikalne wartości, co jest zgodne z zastosowaniem tej wartości jako identyfikator.

Kolumny Battery.Formula, Formula.Charge I Formaula.Discharge odnoszą się do wzorów chemicznych baterii w różnych stanach. Wzory te, mimo że nie są unikalne dla poszczególnych baterii, przyjmują bardzo zróżnicowane wartości. Przyczyn takiego zjawiska może być wiele, na przykład: specyficzne przeznaczenie baterii, zróżnicowane badania chemiczne różnych producentów, nowatorskie rozwiązania.

Największa powtarzalność wartości występuje w kolumnie Working.Ion, reprezentującej jon transportujący ładunek w baterii. Zdecydowanie najczęściej występującym jonem jest lit - pojawia się 2440 razy, kiedy drugi co do częstotliwości występowania wapń pojawia się 435 razy.

4 Korelacje między atrybutami

4.1 Macierz korelacji

Żeby odkryć, jaki wpływ mają na siebie poszczególne kolumny, warto zbadać korelacje między nimi. Poniżej zaprezentowano macierz korelacji. Wartości przedstawiają współczynnik korelacji Pearosna między kolumnami.

Jak można zauważyć, duży wpływ na siebie mają